在訓練深度學習模型之前,我們必須先想想要做什麼樣的主題。深度學習的應用有很多種,包含物件偵測、語意分割、影像分類與自然語言處理等,甚至是現今流行的生成式 AI 如影像生成等應用。這些模型會誕生,都源自於它們的資料集。選擇符合需求的資料集很重要,資料集也會影響模型訓練的結果。如果想快速尋找資料集,Kaggle 是一個很不錯的選擇,同時 Kaggle 也是專門舉辦各種領域資料集的機器學習與深度學習模型建構的競賽網站。
Kaggle 為一個專門於資料科學與機器學習的競賽平臺,裡面有許多種類的資料集,包含電腦視覺、教育資料、分類任務、自然語言處理和資料視覺化等類別,提供者包含許多企業、研究單位或是官方等。Kaggle 內是使用 Notebook 來建構模型,當提交模型後會有名次或是分數,有些資料集競賽的主辦單位會提供高額獎金給冠軍,有些純粹是知識性分享,或是給予其他性質的獎勵。
(沒有錢錢(誘因)拿的競賽其實也很值得參加,同時訓練自己,把訓練好的模型提交出去,看到自己的分數或是排名的所在位置,其實也很有趣啊)
Kaggle 還有提供許多不同任務需求的模型,可以在該頁面查看模型的熱門趨勢,也有許多 Kaggle 使用者分享程式碼,也有討論區一起與資料科學愛好者討論,新手也不用擔心,裡面也有課程可以學習,真的是一個很棒的網站!
可以開始瀏覽 Kaggle 網站,找找看有沒有感到興趣的資料集,明天我們就要開始慢慢進入實作囉!